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OCR-pakketten 


Geloof het of niet, maar je kan je pc leren lezen. Daarvoor hoef je er niet mee naar een speciaal 


instituut te trekken, maar je moet wel aan twee voorwaarden voldoen: je hebt een scanner 


nodig én een OCR-pakketje. OCR staat voor Optical Character Recognition en het betekent 


gewoon dat het programma een ingescande tekst niet langer als één enkel beeld waarneemt, 


maar dat het letters, cijfers en andere tekens los van elkaar kan herkennen … 


zowel ScanSoft als IRIS uit met ver- 

nieuwde OCR-pakketten. De derde gro- 
te speler, het Russische ABBYY, houdt het 
voorlopig nog bij de ‘oudere’ versie 5.0 van 
FineReader. Daarom hebben we een ander 
pakket van de ScanSoft-stal gehaald: Text- 
Bridge Pro Millennium. 


R elatief snel na de vorige versies, pakken 


Nu ook in pdf 


Met FineReader 5.0 kon je al rechtstreeks scan- 
nen naar het Adobe Acrobat pdf-formaat. Nu 
is dat ook mogelijk in ReadIris Pro 7 en Om- 
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niPage Pro ir. De opties zijn zelfs wat uitge- 
breider. Zo maakt ReadIris een onderscheid 
tussen PDF Test en PDF Beeld-Tekst. Het eer- 
ste kan wel beeldmateriaal bevatten, maar het 
eindresultaat heeft slechts één laag. De twee- 
de optie herkent extra items op de gescande 
pagina en bevat twee lagen. Daardoor is het 
ook mogelijk om bladwijzers aan te maken, 
miniaturen te creëren en achteraf door heel 
het pdf-document te zoeken. OmniPage gaat 
nog een stapje verder en biedt twee extra va- 
rianten om in pdf-formaat op te slaan, maar 
het zou te ver leiden om hier in detail op in te 
gaan. Belangrijker is dat OmniPage je in staat 


stelt pdf-bestanden zelf te herkennen als bron 
en die te converteren naar bijvoorbeeld het 
Word-formaat, om er eventueel wijzigingen 
in aan te brengen. Om het resultaat opnieuw 
in pdf op te slaan, heb je wel een pdf-writer 
nodig. Het meest voor de hand liggend is 
Adobe Acrobat zelf, maar er zijn ook goed- 
kopere alternatieven. 

Werken die drie nieuwe OCR-pakketten ook 
onder Windows XP? Uiteraard, want ze doen 
het wel allemaal onder Windows 2000. Toch 
zit er een addertje onder het gras. Als je scan- 
ner niet over de juiste TWAIN-stuurbestan- 
den beschikt voor Windows 2000 of Windows 
XP, dan kan je natuurlijk niks aanvangen met 
OCR-programma’s. 


Sneller is trager 


Hoe testen we OCR-programma’s? Heel een- 
voudig: door documenten van verschillende 
origine te scannen en ze via de drie OCR-pak- 
ketten te laten passeren. We gebruiken een 
Agfa SnapScan eyo scanner, gekoppeld aan 
een AMD Athlon Classic 800 MHz met 128 
MB RAM onder Windows 98 SE. Het resul- 
taat van de OCR-bewerking drukken we af en 
vergelijken we met het originele document. 
Zoals een plichtsgetrouwe leraar halen we dan 
de rode balpen boven en verbeteren elke fout 
in het document. Het gemiddelde resultaat 
van de verschillende documenten vormt de 
nauwkeurigheidsscore. 

Je zal je wellicht afvragen waarom we niet op- 
meten hoelang een OCR-bewerking duurt. 
Snelheid is tenslotte een belangrijke factor bij 
de keuze van een OCR-programma. Wel, dat 
zit zo: sommige OCR-pakketten, zoals Om- 


niPage Pro rr, geven je de kans om de nauw- 
keurigheidsgraad min of meer zelf te bepa- 
len: ofwel sneller scannen, ofwel nauwkeuri- 
ger scannen. Hoe gek het ook mag klinken, 
maar als je alles in rekening brengt, is die laat- 
ste optie zelfs sneller. De tekst inscannen en 


NIEUW EN NU REEDS OP 


herkennen verloopt inderdaad trager, maar je 
moet achteraf veel minder fouten manueel 
corrigeren. Als je voor een snellere scan kiest, 
is de kans op fouten beduidend hoger. Je zal 
de gescande tekst dan van kop tot teen moe- 
ten nalezen en dat kost extra tijd. Heb dus wat 


DE TESTTAFEL VAN CLICKX: DRIE STUKJES HARD- OF 
SOFTWARE WORDEN NAAST ELKAAR GEZET, GETEST EN VERGELEKEN 


meer geduld en kies steeds voor de hoogste 
nauwkeurigheid. Het resultaat is niet alleen 
beter, maar als puntje bij paaltje komt is het 
ook sneller. 

— Dis Pesiis— 


ee OmniPage Pro rr komt vrij 
EN snel na de versie ro, maar 

heeft toch heel wat nieu- 
wigheden. Over de uitge- 


breide pdf-ondersteuning 

een hebben we het al gehad, 

De Pa 2 ge maar er is ook veel aan- 
omni 1 dacht besteed aan het be- 


houd van de lay-out van het originele 
document. Zo worden kolommen, kop- en 
voetteksten, paginanummers, bijschriften en 
beginkapitalen behouden, om er maar enke- 
le te noemen, al is dat niet over de hele lijn 
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ScanSoft OmniPage Pro 11 


merkbaar. De intelligente nieuwe IntelliTrain- 
functie laat de proeflezer toe wijzingen aan te 
brengen en die ook onmiddellijk in de rest 
van het document door te voeren. Soortgelij- 
ke fouten worden op die manier automatisch 
hersteld. Versie 11 moet een betere verwer- 
king van slechte originelen garanderen, zo- 
als faxen en kopieën van kopieën. Daarvoor 
zorgt de Despeckle-functie die zwarte punt- 
jes, spikkels en andere storende elementen 
uit het origineel filtert vóór het scanproces en 
de tekstherkenning beginnen. Ook tabellen 
zonder raster worden nu als tabel herkend. 
De Direct OCR-functie laat on- 
middellijk tekstherkenning toe 
vanuit Word en Excel, zonder dat 
je eerst OmniPage moet starten. 
Het aantal herkende talen is fors 
toegenomen en bedraagt nu meer 
dan roo. Enorm handig is dat je 
ook langere documenten zoals 
boeken of verschillende losse vel- 
len kan verwerken zonder dat je 
scanner over een automatische 
documentinvoer (ADF, Automa- 
tic Document Feeder) beschikt. 
Bij vele scanners is zo’n extra mo- 


dule namelijk niet eens aanwezig. Je kan dat 
nu omzeilen door een interval in te stellen 
tussen twee scans, om je zo de tijd te geven 
een andere pagina klaar te leggen. 


De nieuwe versie heeft zoveel nieuwig- 
heden en verbeteringen dat de vorige edi- 
tie (10) bij nader inzien niets meer was 
dan een overgangsproduct. OmniPage 
Pro 11 is duidelijk het pakket met de 
meest overzichtelijke interface en het 
biedt bovendien de meeste functies. 


WIE-VAN-DE-3-SCORE 

Nauwkeurigheid: EE 
Interface: ee 
Functies: EEE 
Prijsscore: en 
Wie-van-de-3-score: ENE 


PRODUCTINFO 

Product: OmniPage Pro 11 

Producent: ScanSoft, 0031/36/530.25.02 
Url: [ www.scansoft.com | 


Readlris Pro 7.0 


Op het eerste gezicht zien we weinig 
verschil met versie 6.0. Aan de in- 
terface is namelijk nauwelijks ge- 
raakt. Versie 6 was eigenlijk al een 
enorme verbetering ten opzichte 
van haar voorganger. Toch beweert 
IRIS dat de nauwkeurigheid met 
maar liefst 40% is toegenomen. 
Dat lijkt spectaculair, maar als je al een nauw- 
keurigheidsgraad claimde van meer dan 98%, 
dan is die 40% plots een veel minder door- 
slaggevend argument. Zoals FineReader en 
OmniPage Pro 11 kan ReadlIris Pro 7 nu ook 
documenten in pdf-formaat bewaren. Samen 
met de ondersteuning van digitale camera’s 
en de detectie van de paginaoriëntatie, is dat 


94e» vaaormen. 


de belangrijkste innovatie. De on- 
dersteuning van digitale came- 
ra’s mag vreemd lijken voor een 
OCR-programma, maar in archi- 
veringskringen zal die functie ze- 
ker worden gewaardeerd. Verder 
zijn een heleboel functies uitge- 
breid of gecorrigeerd. Dat is bij- 
voorbeeld het geval voor de herken- 
ning van gekleurde documenten of tabellen 
en de eliminatie van vlekken in bijvoorbeeld 
faxdocumenten. Het aantal ondersteunde ta- 
len werd uitgebreid en ook de OCR Wizard is 
onder handen genomen. 
Voor wie dikwijls meerledige documenten scant, 
is er goed nieuws. Die mogen nu groter zijn dan 


Prijs: € 175 


VAKTAAL 


Pdf: Afkorting van portable document format. Een 
bestandsformaat voor opgemaakte teksten, inclu- 
sief illustraties, inhoudsopgave, verwijzingen, enz. 
Pdf-bestanden kan je bekijken met de Acrobat- 
viewer, een gratis hulpprogramma van Adobe. 


Twain: Stukje software dat gestandaardiseerde 
uitwisseling van beelden mogelijk maakt. 
Hierdoor kunnen bijvoorbeeld door scanners en 
digitale camera’s gemaakte afbeeldingen worden 
ingelezen in elk beeldbewerkingspakket dat 
TWAIN ondersteunt (gelukkig doen ze dat tegen- 
woordig bijna allemaal). 
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honderd pagina’s. Je moet dan wel over een scan- 
ner beschikken met automatische document- 
invoer (ADF). De oplossing die OmniPage Pro 


1 biedt om ook meervoudige documenten 


te 


scannen zonder ADF, is er niet. Misschien een 


tip voor de volgende versie? 


Readlris was nog niet zo lang geleden het 
zwakkere broertje onder de OCR-pak- 
ketten. Sinds de revolutionaire versie 6.0 
heeft IRIS met dit imago afgerekend. De 
nieuwe versie 7.0 gaat op dat elan verder 
en heeft enkele unieke functies, zoals de 
ondersteuning van digitale camera's. 


WIE-VAN-DE-3-SCORE 


Nauwkeurigheid: BIEN 
Interface: EA 
Functies: mm 
Prijsscore: WE 


Wie-van-de-3-score: 


EEE 


PRODUCTINFO 

Product: Readlris Pro 7.0 

Producent: I.R.I.S, 010/45.13.64 

Url: [ www.irislink.com | 

Prijs: € 190 (toevoeging Aziatische talen, 
€ 120) 
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ALGEMENE CONCLUSIE 


ScanSoft OmniPage Pro 11 en Readlris 7 ontlopen elkaar nauwelijks. Op 
het vlak van nauwkeurigheid scoren ze even goed. Eigenlijk vinden we 
de interface van OmniPage net iets beter en daardoor haalt dit pakket 
het met een neuslengte van Readlris. Deze beoordeling is een beetje sub- 


Scansan 


ScanSoft TextBridge 


Pro Millennium 


Moet het allemaal niet zo uit- 
gebreid zijn en vooral, veel 
goedkoper, dan is TextBridge 
Pro Millennium misschien iets 
voor jou. TextBridge was het 
oorspronkelijke OCR-pakket 
van ScanSoft. Er is nooit een 
Nederlandse versie van gemaakt 
en dat is jammer, want dit pak- 
ket is specifiek voor de consu- 
ment bedoeld. OmniPage Pro 
rr is namelijk flink wat duurder 
en wordt door ScanSoft vooral 
afgestemd op de veeleisende, 
semi-professionele gebruiker. 
De interface is vrij eenvoudig, 
al vinden we er toch heel wat 
functies van de duurdere pak- 
ketten in terug. Maar het zijn 
net de nieuwigheden van Om- 
niPage Pro 11 of ReadIris Pro 
7.0, zoals de pdf-ondersteuning, 
die je zal moeten missen. Wie 
de OCR-functie van Office XP 
gebruikt, hoeft niet echt geld uit 
te geven aan TextBridge. De mo- 
tor is namelijk identiek. De eni- 
ge verschillen zijn de andere in- 
terface en de wat omvangrijke- 
re functieset. Het OCR-onder- 
deel van Office XP is daarente- 
gen netjes in het Nederlands en 
daardoor wellicht be- 
ter hanteerbaar. 


 TestBdge 


jectief en het kan best zijn dat jij net het omgekeerde ondervindt. Dui- 


delijk is wel dat TextBridge het mindere broertje is, ondanks de erg aan- 
trekkelijke prijs. Het is enkel en alleen dankzij die prijs dat het product 
de hoogste score haalt, want de tekstherkenning staat op een beduidend 
lager niveau. En ABBYY FineReader 5.0? Dat pakket kwam niet aanmer- 
king, maar omwille van het aardig prijskaartje en de goede prestaties, 
blijft ook dat een aanrader. 


CLICKX MAGAZINE 7 - 29 JANUARI 2002 


ScanSoft TextBridge Pro Millennium is een 
brug tussen de duurdere pakketten (Re- 
adlris Pro 7 en OmniPage Pro 11) en de 
sterk afgestripte en soms verouderde 
OCR-programma's die je gratis bij een 
scanner krijgt geleverd. Je merkt het ook 
aan de prijs: € 75 in plaats van € 175 euro 
voor OmniPage. Je moet wel wat conces- 
sies doen: zo is er geen Nederlandse ver- 
sie, ondersteunt TextBridge slechts 56 ta- 
len (waaronder het Nederlands) en moet 
je pdf-ondersteuning missen. 


WIE-VAN-DE-3-SCORE 


Nauwkeurigheid: AE 
Interface: IEEE 
Functies: eel 
Prijsscore: mmm 


Wie-van-de-3-score: 


PRODUCTINFO 

Product: TextBridge Pro Millennium 
Producent: ScanSoft, 0031/36/530.25.02 
Prijs: € 75 

Url: www.scansoft.com 
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AID Click Recogrize to corwert your pages to tent 
z U Click Save As to save your recognized pages 
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WD Click Auto to do all the above 
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